查看原文
其他

围观!看ChatGPT如何"爆锤"BRET,实验结果却令人极为诧异......

ShuYini AINLPer 2023-07-10
点击下方卡片,关注‘’AINLPer‘’
更多干货,第一时间送达

引言

 ChatGPT引起了极大的关注,它对于人们的问题可以给出流畅且高质量的回答。通过主观体验可以发现:与现有的Fine-tuned Bert模型相比,ChatGPT具有显著的生成能力。然而,对ChatGPT理解能力的量化分析却鲜有人关注。为此,本文给大家分享的这篇文章,从释义、自然语言推理、情感分析、文本相似性、问答等「8个任务进行量化对比」,看ChatGPT如何爆锤Fine-tuned Bert模型!,但是实验结果却令人极为诧异~~

实验室设置

测试任务及数据集选择

 继许多先前的工作,「选择广泛使用的 GLUE 基准对模型进行评估」。其中GLUE是目前最流行的NLU基准测试之一,GLUE 由几个具有挑战性的 NLU 任务组成,包括语言可接受性、情感分析、释义、文本相似性、问题释义(QQP)、文本涵义和问答蕴含。考虑到测试 ChatGPT 的局限性,并随机抽取开发数据集的一个子集作为每个任务的评估数据。具体来说,由于大多数 GLUE 任务都是分类任务(除了STS-B,它是一个回归任务),本文「从开发集中为每个类随机抽取25个实例,对于STS-B,从均匀分布中随机抽取50个实例」 上表显示了8个任务描述和统计数据。对于大部分任务,采用“Acc”进行性能评估,其中,对于STS-B的Pearson和Spearman 相关性采用“Pear./Spea.”进行评估分析,对于CoLA的Matthew相关采用“Mcc”进行评估分析,对于MRPC和QQP新增额外的F1得分评估分析。

ChatGPT对战四大Bert模型

 将ChatGPT(1月31日版本「与4个具有代表性的BERT模型(base-sized/large-sized BERT和RoBERTa)进行比较」。所有模型都在每个任务的完整训练集上进行微调。为了估计ChatGPT的理解能力的下限,主要关注了ChatGPT和基本的base-sized BERT之间的比较。其中,对于ChatGPT,会引导其生成5个对应任务的提示,并为每项任务选择一个典型的提示。

零样本实验结果

 按照上面的试验任务以及模型对比选择,五个模型的GLUE基准测试的结果如下表所示。总体而言,「ChatGPT 可以实现与BERTbase相当的平均性能(78.7%对79.2%),但仍然低于其它Fine-tuned的BERT模型」,例如RoBERTalarge整体得分为87.8%,优势明显。ChatGPT 达到了基本的理解能力,但仍有相当大的改进空间。具体来说,将ChatGPT与BERTbase在具体任务上进行比较,可以发现:

  • ChatGPT在释义和相似性任务上表现不佳,即MRPC和STS-B,性能下降高达24%。
  • ChatGPT 在自然语言推理任务上超越了所有BERT的模型,即MNLI和RTE,表明其在推理/推理方面的优势。
  • ChatGPT 在单句分类任务,即情感分析 (SST-2) 和语言可接受性 (CoLA),以及 QA 相关任务,与BERT-base相当

 根据上面的结果,对于实际测试ChatGPT的时候,会出现释义和相似性的判别失败的问题,也就有了合理的解释。例如:

基于Prompt实验结果

 上面实验主要验证了「零样本下的ChatGPT性能,评估结果表明,在某些NLU任务上,ChatGPT与Fine-tuned BERT模型之间仍有明显差距」。都说利用Prompt方法可以提高LLMs模型能力,这里尝试研究这些方法(Standard few-shot prompting、Manual few-shot CoT prompting、Zero-shot CoT)是否可以提高ChatGPT的能力并缩小其与BERT模型的性能差距。 通过以上结果可以发现:对于基线ChatGPT(78.7%)(即:零样本ChatGPT),所有这些提示策略都对其带来了一定的性能提升。具体而言,标准few-shot prompting和Zero-shot CoT提示分别提高了ChatGPT +5.1%和+5.0%的平均表现,Manual few-shot CoT prompting的帮助下,ChatGPT实现了高达+7.5%的平均增益,甚至超过了大多数bert风格的模型(RoBERTalarge除外)。

结论

 通过上面一系列定量研究分析,结果发现:

  • ChatGPT 在推理任务上表现良好,但在处理释义和相似性任务方面表现不佳。
  • 通过一些高级提示策略来提高ChatGPT的理解能力,并可以取得显着的性能提升,甚至在某些任务上的表现优于强大的 RoBERTa-large。

 总体而言,与一些微调的BERT模型相比,ChatGPT获得了相当的推理能力,但在某些NLU任务上仍无法击败目前最好的模型。

推荐阅读

[1] 收藏!ChatGPT等大语言模型(LLMs)测试数据集

[2] 2023年!自然语言处理 10 大预训练模型

[3] NLP不断突破界限,2023 十篇必读的顶级NLP论文!

[4] 惊奇发现:大语言模型除了学习语言还学到了...

[5] 你必须要知道的 “ 十二个国际顶级会议 ” !

论文&&源码

Paper:https://arxiv.org/pdf/2302.10198v2.pdf

Code:https://github.com/whu-zqh/chatgpt-vs.-bert

点击下方链接🔗关注我们

「资料整理不易,请点个再看吧」

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存